Aprenentatge d'Occam

En la teoria de l'aprenentatge computacional, l'aprenentatge d'Occam és un model d'aprenentatge algorítmic on l'objectiu de l'alumne és produir una representació sucinta de les dades d'entrenament rebudes. Això està estretament relacionat amb l'aprenentatge probablement aproximadament correcte (PAC), on l'aprenent és avaluat pel seu poder predictiu d'un conjunt de proves.

L'aprenentatge d'Occam implica l'aprenentatge de PAC, i per a una gran varietat de classes de conceptes, també és cert el contrari: l'aprenentatge de PAC implica l'aprenentatge d'Occam.^[1]

Occam Learning rep el nom de la navalla d'Occam, que és un principi que estableix que, tenint en compte que totes les altres coses són iguals, s'hauria d'afavorir una explicació més curta de les dades observades en lloc d'una explicació més llarga. La teoria de l'aprenentatge d'Occam és una justificació formal i matemàtica d'aquest principi. Va ser mostrat per primera vegada per Blumer, et al.^[2] que l'aprenentatge d'Occam implica l'aprenentatge PAC, que és el model estàndard d'aprenentatge en la teoria de l'aprenentatge computacional. En altres paraules, la parsimònia (de la hipòtesi de sortida) implica poder predictiu.^[3]

La concisió d'un concepte $c$ a classe de concepte ${\mathcal {C}}$ es pot expressar per la longitud $size(c)$ de la cadena de bits més curta que pot representar $c$ en ${\mathcal {C}}$ . L'aprenentatge d'Occam connecta la concisió de la sortida d'un algorisme d'aprenentatge amb el seu poder predictiu sobre dades no vistes.

Deixar ${\mathcal {C}}$ i ${\mathcal {H}}$ ser classes de conceptes que contenen conceptes i hipòtesis objectiu respectivament. Després, per a constants $\alpha \geq 0$ i $0\leq \beta <1$ , un algorisme d'aprenentatge $L$ és un $(\alpha ,\beta )$ -Algorisme d'Occam per ${\mathcal {C}}$ utilitzant ${\mathcal {H}}$ si, donat un conjunt $S=\{x_{1},\dots ,x_{m}\}$ de $m$ mostres etiquetades segons un concepte $c\in {\mathcal {C}}$ , $L$ dona sortida a una hipòtesi $h\in {\mathcal {H}}$ de tal manera

$h$ és coherent amb $c$ activat $S$ (això és, $h(x)=c(x),\forall x\in S$ ), i
$size(h)\leq (n\cdot size(c))^{\alpha }m^{\beta }$ ^[4]^[5]

on $n$ és la longitud màxima de qualsevol mostra $x\in S$ . Un algorisme d'Occam s'anomena eficient si s'executa en un polinomi de temps $n$ , $m$ , i $size(c).$ Diem una classe de conceptes ${\mathcal {C}}$ és Occam aprendre respecte a una classe d'hipòtesis ${\mathcal {H}}$ si existeix un algorisme Occam eficient per ${\mathcal {C}}$ utilitzant ${\mathcal {H}}.$

↑ Mavuduru, Amol. «What Occam’s Razor Means in Machine Learning» (en anglès). towardsdatascience.com, 09-08-2022. [Consulta: 15 febrer 2023].
↑ Blumer, A., Ehrenfeucht, A., Haussler, D., & Warmuth, M. K. (1987). Occam's razor. Information processing letters, 24(6), 377-380.
↑ published, Joshua A. Krisch. «What is Occam's razor?» (en anglès). https://www.livescience.com,+19-12-2022.+[Consulta: 15 febrer 2023].
↑ Kearns, M. J., & Vazirani, U. V. (1994). An introduction to computational learning theory, chapter 2. MIT press.
↑ Blumer, A., Ehrenfeucht, A., Haussler, D., & Warmuth, M. K. (1987). Occam's razor. Information processing letters, 24(6), 377-380.

[1] Mavuduru, Amol. «What Occam’s Razor Means in Machine Learning» (en anglès). towardsdatascience.com, 09-08-2022. [Consulta: 15 febrer 2023].

[def-2] Blumer, A., Ehrenfeucht, A., Haussler, D., & Warmuth, M. K. (1987). Occam's razor. Information processing letters, 24(6), 377-380.

[3] ublished, Joshua A. Krisch. «What is Occam's razor?» (en anglès). https://www.livescience.com,+19-12-2022.+[Consulta: 15 febrer 2023].

[kv2-4] Kearns, M. J., & Vazirani, U. V. (1994). An introduction to computational learning theory, chapter 2. MIT press.

[def3-5] Blumer, A., Ehrenfeucht, A., Haussler, D., & Warmuth, M. K. (1987). Occam's razor. Information processing letters, 24(6), 377-380.

[1]

[2]

[3]

[4]

[5]